Le deep learning est fondamentalement une évolution de l'apprentissage automatique classique, considérant la reconnaissance de motifs complexes comme un problème de approximation de fonctions à haute dimension problèmes. Ce domaine repose sur l'extension des techniques établies en algèbre linéaire et d'optimisation, passant des modèles classiques à faible nombre de paramètres (comme les SVM standards ou la régression linéaire) vers des modèles impliquant des millions voire des milliards de paramètres. Le succès exige une maîtrise de la définition de ces relations complexes à l'aide de notations matricielles efficaces.
1. La structure fondamentale : Approximation fonctionnelle fortement paramétrée
Un réseau neuronal profond est construit en empilant des transformations linéaires simples (multiplications matricielles utilisant les poids $W$ et les biais $b$) alternées avec des fonctions d'activation non linéaires élément par élément. Cette architecture permet au réseau d'apprendre automatiquement des hiérarchies de caractéristiques de plus en plus abstraites et complexes directement à partir des entrées brutes.
2. Le lien essentiel : Calcul multivariable et rétropropagation
L'entraînement de ces modèles massifs consiste à minimiser une fonction de perte $L(\theta)$ sur tous les paramètres du réseau $\theta$. Ce processus exige le calcul efficace du gradient $\nabla_{\theta} L$ pour chaque paramètre individuel à l'aide d'un algorithme appelé rétropropagation, qui est l'application directe de la règle de chaîne multivariable de dérivation.
The weights $W$ have dimension $(D \times K)$. Therefore, the gradient $\frac{\partial L}{\partial W}$ must also be $(D \times K)$ to perform the parameter update $W := W - \eta \frac{\partial L}{\partial W}$.